Configuration Détaillée de Tesseract
En matière de reconnaissance optique de caractères (OCR), il est essentiel de disposer d'options et de flexibilité quant à la manière d'aborder et d'extraire le texte des documents. L'OCR étant coûteuse, il est nécessaire de pouvoir contrôler ses performances et les méthodes à utiliser sur des documents spécifiques afin de garantir l'évolutivité et l'efficacité de l'application utilisant l'OCR.
IronTesseract offre aux développeurs différentes propriétés et options avec lesquelles ils peuvent expérimenter. Par exemple, si vous souhaitez mettre sur liste noire certains caractères ou lire également les codes-barres contenus dans les documents ou même dicter comment le moteur OCR lit la page pour rechercher d'éventuels blocs de texte, tout cela et bien plus encore avec la classe IronTesseract.
- `var ocrTesseract = new IronTesseract();`
- `ocrTesseract.Language = OcrLanguage.EnglishBest;`
- `ocrTesseract.Configuration.ReadBarCodes = false;`
- `ocrTesseract.Configuration.BlackListCharacters = "`ë|^";`
- `ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;`
Après avoir initialisé la classe IronTesseract, quelques options importantes sont immédiatement disponibles et nous souhaiterions les modifier. La première propriété à configurer est Language. Par défaut, la langue est l'anglais ; Cependant, IronTesseract prend en charge jusqu'à 125 langues et permet même plusieurs langues avec la méthode UseMultipleLanguages. Pour plus de détails, consultez cette page .
La deuxième propriété que nous voulons configurer est la classe TesseractConfiguration. Grâce à cette classe, nous pouvons modifier la façon dont le moteur Tesseract analyse le document à la recherche de blocs de texte potentiels.
- Premièrement, nous modifions le langage du moteur Tesseract en attribuant le langage à
OcrLanguage.EnglishBest. Cette variante combine un LSTM et un OEM, qui sont des stratégies de reconnaissance de formes utilisant l'OCR ; La combinaison de ces deux stratégies permet à l'OCR de produire des résultats plus précis. - Ensuite, nous avons mis
ReadBarCodessur false pour éviter la lecture des codes-barres pendant le processus OCR.
Nous personnalisons et spécifions également les caractères que nous souhaitons extraire en mettant sur liste noire certains caractères du document ; Dans cet exemple, nous mettons sur liste noire des caractères afin d'éviter d'extraire du texte contenant des accents graves, des accents ou des chevrons. Enfin, nous avons défini TesseractVariables["tessedit_parallelize"] sur false pour désactiver temporairement le traitement parallèle. Cette dernière fonctionnalité est particulièrement puissante car elle interagit directement avec le moteur Tesseract. Voici la liste complète des TesseractVariables permettant aux développeurs de personnaliser davantage le comportement du moteur Tesseract lors de la reconnaissance optique de caractères (OCR).
Explorez davantage d'options de configuration d'IronTesseract

